Anthropic présente ses excuses après la découverte d’un filtre caché dans Claude Fable 5, conçu pour saboter silencieusement les tentatives de distillation du modèle. L’entreprise promet désormais de rendre cette restriction aussi visible que ses autres garde-fous.

Fable 5 avait à peine le temps de s’installer que la communauté IA tirait déjà la sonnette d’alarme. Le 11 juin 2026, The Verge révélait qu’Anthropic avait intégré dans son nouveau modèle un mécanisme de sécurité délibérément invisible : un filtre anti-distillation qui, au lieu de refuser franchement les requêtes suspectes, modifiait les réponses en coulisses pour les rendre inutilisables. Pas de message d’erreur, pas d’avertissement. L’utilisateur recevait des sorties volontairement dégradées sans en être informé. Pour des chercheurs qui paient pour accéder au modèle, la pilule est amère.
Un filtre conçu pour tromper, pas pour refuser
La distillation est une technique courante en recherche : elle consiste à utiliser les sorties d’un grand modèle pour entraîner un modèle plus compact. Anthropic l’interdit dans ses conditions d’utilisation, ce qui en soi est son droit. Mais la façon dont Claude Fable 5 gérait ces tentatives tranche nettement avec ses autres restrictions. Pour les requêtes liées aux cyberattaques, à la biologie ou à la chimie, le modèle bascule explicitement vers Claude Opus 4.8 et prévient l’utilisateur. Pour la distillation, il modifiait discrètement les prompts via des mécanismes complexes, produisant des résultats délibérément faussés. Le tout était d’ailleurs documenté noir sur blanc dans la system card du modèle, mais personne ne lit les system cards.
La réaction de la communauté a été, selon Gizmodo, « la plus en colère que j'aie jamais vue de la part de chercheurs en IA ». Un utilisateur Reddit a résumé le sentiment général : « Un refus ou une erreur HTTP-4xx pour du contenu sensible, c'est acceptable. Mais là, c'est prendre l'argent des gens et empoisonner leur base de code. »
La transparence comme seule sortie de crise
Anthropic a réagi vite. Dans un communiqué, la société reconnaît avoir « fait le mauvais compromis » et s’excuse de ne pas avoir « trouvé le bon équilibre ». Concrètement, les requêtes identifiées comme des tentatives de distillation basculeront désormais vers Claude Opus 4.8, exactement comme pour les autres domaines sensibles. Et l’utilisateur sera prévenu à chaque fois, sans exception.

Sauf que l’incident dit quelque chose de plus profond sur la stratégie d’Anthropic. Fable 5 est déjà une version bridée de Mythos, le modèle que la société juge trop dangereux pour une diffusion publique sans restrictions majeures. Vouloir protéger ce patrimoine technologique contre la distillation est compréhensible, voire légitime sur le plan commercial. Mais choisir de le faire en silence, plutôt qu’en assumant ouvertement la restriction, c’est exactement le type de décision qui érode la confiance, surtout pour une entreprise qui a fait de la transparence et de la sécurité responsable ses arguments de vente centraux.
Cette affaire illustre une tension qui ne va pas disparaître : les grands labos d’IA veulent à la fois ouvrir leurs modèles au monde et protéger leur avance technologique contre la concurrence. Deux objectifs légitimes, mais difficilement conciliables sans une communication franche. Anthropic a corrigé le tir rapidement, ce qui compte. Reste à voir si cette mésaventure modifiera durablement la façon dont l’entreprise documente ses garde-fous, ou si la prochaine system card contiendra encore des lignes que personne ne lira avant qu’il soit trop tard.